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摘 要 : 密度 峰值 聚 类 算法 是 一 种 新 颖 的 密度 聚 类 算法 ， 但 是 ， 原 算法 仅仅 考虑 了 数据 的 全 局 结构 ， 在 对 分 布 不 均 
匀 的 数据 集 进 行 聚 类 时 效果 不 理想 ， 并 且 原 算法 仅仅 依据 决策 图 上 各 点 的 分 布 情况 来 选取 聚 类 中 心 ， 缺 乏 可 靠 的 选 
取 标 准 。 针 对 上 述 问题 ， 提 出 了 一 种 基于 加 权 开 近邻 的 改进 密度 峰值 聚 类 算法 ， 将 最 近邻 算法 的 思想 引入 密度 峰值 
聚 类 算法 ， 重 新 定义 并 计算 了 各 数据 点 的 局 部 密度 ， 并 通过 权 值 斜率 变化 趋势 来 判别 聚 类 中 心 临界 点 。 通 过 在 人 工 
数据 集 上 与 UCI 真实 数据 集 上 的 实验 ， 将 该 改进 算法 与 原 密度 峰值 聚 类 算法 、K-MEANS 算法 及 DBSCAN 算法 进 
行 了 对 比 ， 证 明了 改进 算法 能 够 在 密度 不 均匀 数据 集 上 有 效 完成 聚 类 ， 能 够 发 现任 意 形 状 徐 ， 且 在 三 个 聚 类 性 能 指 
标 上 普遍 高 于 另外 三 种 算法 。 
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Improved density peak clustering algorithm based on weighted K-nearest neighbor 


Yang Zhen, Wang Hongjun 
(National University of Defense Technology, Hefei 230037, China) 


Abstract: The density peak clustering algorithm was a new density-based clustering algorithm, the algorithm requires only 
one input parameter and does not require frequent iterative processes. However, the original algorithm only considers the 
global structure of the data, and the effect is not ideal when clustering data sets with uneven distribution. Moreover, the 
original algorithm only selects the cluster center according to the distribution of points on the decision graph, which is not 
reliable. Aiming at the above problems, an improved density peak clustering algorithm based on weighted K-nearest 
neighbor is proposed. The idea of nearest neighbor algorithm is introduced into the density peak clustering algorithm, the 
local density of each data point is redefined and calculated, and determine the critical point of the cluster center by the trend 
of the slope of the weight. The improved algorithm is compared with the original density peak clustering algorithm, 
K-MEANS algorithm and DBSCAN algorithm by experiments on the artificial dataset and UCI real dataset. It is proved that 
the improved algorithm can deal with the density uneven dataset and find clusters of arbitrary shapes. On the three cluster 
performance indicators, the improved algorithm is generally higher than the other three algorithms. 


Key words: data mining; weighted K-nearest neighbor; density peaks; clustering 
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0 引言 但 是 ，DPC 算法 仍然 存在 一 些 不 足 : a) 在 计算 局 部 密度 

聚 类 通常 作为 一 种 无 监督 学 习 方 法 被 用 于 数据 挖掘 领 ” 时 ， DPC 算法 没有 考虑 到 局 部 数据 结构 ; b)DPC 算法 采用 启 
域 。 聚 类 分 析 的 主要 目的 是 将 给 定 的 集群 划分 为 具有 共同 特 ”发 式 的 决策 图 来 选取 聚 类 中 心 ， 缺乏 可 靠 的 选择 标准 。 例如， 
征 的 群 组 ， 特 征 相 似 的 对 象 被 分 在 一 起 ， 而 特征 差异 较 大 的 当 样 本 集群 中 县 有 密度 分 布 不 均匀 的 情况 时 ，DPC 算法 的 聚 
对 象 则 属于 不 同 的 群 组 。 聚 类 在 探索 性 模式 分 析 ， 分 组 决策 。 类 结果 往往 不 太 理 想 ， 而 具有 不 同 密度 的 艇 在 数据 集中 是 非 
和 机 器 学 习 情 境 中 用 途 广 泛 ， 包 括 文档 检索 ， 图 像 分 割 和 模 常常 见 的 。 图 1(a)~(c) 为 DPC 在 不 同 输入 参数 下 的 聚 类 结果 ， 
式 分 类 等 帆 。 聚 类 方法 按照 原理 不 同一 般 可 分 为 五 类 外: 划 与 (d) 中 本 文 算法 的 聚 类 结果 相 比 ， 可 以 看 出 ， DPC 算法 没有 
TRK CU Kmeans++6l )、 层 次 聚 类 、 密 度 聚 类 (如 检测 出 样本 数据 集中 所 有 簇 ， 它 将 原本 由 三 个 簇 组 成 的 样本 


Ds 


DBSCANI*51)、 网 格 聚 类 以 及 模型 聚 类 ， 每 种 方法 都 有 对 应 ”数据 集聚 类 为 两 个 禾 。 当 遇 到 类 似 的 密度 不 均匀 数据 集 时 ， 
的 优点 和 缺点 。 DPC 算法 无 法 给 出 准确 的 聚 类 结果 。 

其 中 ， 基 于 密度 的 聚 类 算法 假设 聚 类 结构 能 够 通过 样本 分 布 这 几 年 来 不 断 有 学 者 针对 DPC 算法 的 不 足 作出 改进 , 但 
的 紧密 程度 确定 ， 其 优势 在 于 可 发 现任 意 形状 的 能。 同时 也 产生 了 新 的 问题 。 文 献 [13] 基 于 信息 灶 理 论 提出 了 一 


Rodriguez 等 人 提出 了 一 种 新 颖 的 密度 聚 类 算法 : 密度 峰值 聚 中 自动 确定 最 佳 输入 参数 的 改进 算法 ， 但 是 该 算法 仍然 没有 
类 (density peaks clustering, DPC) 算法 四， 该 算法 能 够 检测 坚决 对 密度 不 均 数 据 集聚 类 效果 不 佳 的 问题 ， 并 且 确 定 参 数 
JERE, 并且 不 需要 用 户 先 验 指定 聚 类 数量 。DPC 算法 只 的 时 间 成 本 大 大 增加 。 文 献 [1 和 将 DPC 算法 和 Chameleon $E 
有 截断 距离 d. 这 一 个 输入 参数 ， 因 此 稳定 性 良好 。 目前, 己 法 相 结 合 , 提 出 了 E_CFSFDP 算法 ， 解 决 了 DPC 算法 难以 识 
经 有 不 少 学 者 将 这 种 方法 用 于 图 像 处 理 、 模 式 分 类 等 领域 别 低 密度 簇 的 问题 ， 但 是 其 模型 较为 复杂 。 文 献 [15] 提 出 了 


> 


a 


WHS AHA: 2018-08-31; 修 回 日 期 : 2018-10-25 ”基金 项 目 : 国家 自然 科学 基金 资助 项 目 (61273302) 
作者 简介 : HE 〈1994-)， 男 ， 福 建 南平 人 ， 硕 士 研究 生 ， 主 要 研究 方向 为 聚 类 分 析 、 轨 迹 预测 (nudt_yz1994@163.com); 王 红 军 (1968-)， 男 ， 
江苏 镇 江 人 人， 教授， 博士， 主要 研究 方向 为 移动 通信 网 、 认 知 电子 战 . 


201901.00020v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


第 37 卷 第 3 期 


录用 定稿 杨 E, 等 : 基于 加 权 区 近邻 的 改进 密度 峰值 聚 类 算法 
DPC-KNN 算法 , 结合 KNN 思想 重新 定义 局 部 密度 , 一定 程 ” 样本 点 具有 同样 的 局 


度 上 提升 了 算法 对 密度 不 均匀 数据 集 的 聚 类 效果 ， 但 是 该 算 


法 在 ee di DPC 算法 一 样 缺乏 明确 的 标准 。 
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(c) DPC(p=5%) (d)ADPC-WKNN(p=2%) 
DPC 算法 与 本 文 提出 的 ADPC-WKNN 算法 对 样本 数据 集 的 聚 
类 结果 对 比 
Comparison of clustering results between DPC algorithm and 

ADPC-WKNN algorithm on sample dataset 

本 文 提 出 了 一 种 基于 加 权 K 近邻 的 改进 DPC 算法 
(ADPC-WKNN)， 结 合 加 权 K 近邻 的 思想 重新 定义 并 计算 
了 局 部 密度 ， 并 根据 样本 点 的 权 值 斜 率 变化 趋势 找到 聚 类 中 
心 与 其 余 点 之 间 的 临界 点 , 解决 了 DPC 算法 在 选取 聚 类 中 心 
时 缺乏 明确 标准 的 不 足 ， 一 定 程 度 上 避免 了 多 选 或 漏 选 聚 类 
中 心 所 带 来 的 误差。 在 人 工 数据 集 上 的 实验 结果 证 明了 本 文 
算法 的 可 行 性 。 为 了 评估 ADPC-WKNN 算法 的 性 能 , 在 UCI 
数据 集 上 对 ADPC-WKNN 算法 、DPC 算法 、DBSCAN 算法 
以 及 K-MEANS++ 算 法 进行 了 对 比 实验 ， 结 果 表 明 ， 在 绝 大 
多 数 情况 下 ，ADPC-WKNN 算法 的 聚 类 性 能 更 好 。 
1 ”算法 简介 
1.1 DPC 算法 

DPC 算法 的 基本 思想 如 下 : 聚 类 中 心 的 特征 在 于 其 密度 
高 于 其 周边 样本 ， 并 且 与 有 具有 较 高 密度 的 样本 的 距离 相对 较 
大 。 该 算法 使 用 了 两 个 重要 的 量 ， 一 个 是 各 样本 点 的 局 部 密 
E pi:， 男 一 个 是 各 样本 点 与 更 高 局 部 密度 样本 点 的 最 小 
距离 bio 这 两 个 量 分 别 对 应 于 该 算法 基本 思想 中 的 两 个 假设 ， 
即 聚 类 中 心 的 局 部 密度 高 于 周围 点 的 局 部 密度 ， 并 且 与 具有 
较 高 密度 点 的 距离 相对 较 大 。 接 下 来 将 详细 介绍 这 两 个 量 的 
计算 方法 。 


假设 存在 一 个 数据 集 8 = {x ，N 为 样本 点 个 数 。 首 先 


要 计算 出 各 样本 点 之 间 的 距离 矩阵 ，d(xix) 表 示 样 本 点 xi 到 
样本 点 性 之 间 的 欧 氏 距离 。 样 本 点 如 的 局 部 密度 表示 为 pi， 
其 计算 公式 如 下 : 


图 1 


Fig. 1 


p=} Xd; - 4.) (1) 


x(x) = | ies 


其 中 :de ARRIER, pi RRUA xi ABD. 
中 包含 的 所 有 其 余 样 本 点 的 数量 。 
但 是 ， 对 于 数据 量 较 小 的 数据 集 ， 式 (1) 有 时 会 导致 蘑 些 


(2) 
dc 为 半径 的 贺 


be 


4 


采用 高 


RE. W FAR: 


上 是 选择 数据 集中 所 有 点 的 平均 邻居 点 数量 的 过 程 。 


部 密度 ， 从 而 影响 聚 类 结果 的 准确 性 。 
Att, Rodriguez 和 Laio 还 提供 了 另 一 种 局 部 密度 计算 方法 ， 
f 核 函数 来 定义 pi, HT AK ATER, Jae a KN 


(3) 


de 是 DPC 算法 中 唯一 的 输入 参数 ， 选 择 de 的 过 程 实际 


假设 有 


数据 集 S 由 N 个 样本 ， 


两 之 间 的 距离 之 后 ， 将 距离 值 按 从 小 到 大 的 顺序 排列 ， 得 到 
H N22 个 距离 值 组 成 


Ty 


点 组 成 ,在 求 出 数据 集中 所 有 样本 点 两 


的 向 量 , dc 通常 由 距离 总 个 数 与 用 


户 输 


入 的 百分比 p 的 乘积 所 对 应 的 向 量 中 某 个 距离 值 表示 。 因 此 ， 


实际 上 DPC 算 所 法 


用 户 输入 的 参数 为 百分比 p。 


| 
局 部 


局 部 


另 一 个 量 训 的 计算 则 非常 简单 ， 它 表示 点 为 与 具有 更 高 
密度 的 任何 其 他 样本 点 之 间 的 最 小 距离 ， 其 定义 如 下 ; 
ofan a) (4) 


特别 地 , 当 样 本 点 i 的 局 部 密度 为 所 有 样本 点 中 最 高 时 ， 


其 5; 的 计算 公式 如 下 : 


=. 
里 ; 


HH 心 ; 


决策 


6; =max(dy) (5) 


只 有 同时 具有 较 高 pi 和 6; 的 样本 点 才 被 考虑 为 聚 类 中 
心 ， 并 且 ，Rodriguez 


如 图 


2 所 示 ，(b) 中 决策 图 的 横 轴 
图 可 以 直观 地 反映 出 各 样本 点 这 两 个 量 的 分 布 情况 。 


和 Laio 引入 了 决策 图 来 帮助 确定 聚 类 
表示 pir 纵 轴 表示 i, 


0.24 


(a) 数 据 集 分 布 


(a) Data set distribution 


0 


,| a ® op 
"A 2 


v r 
3 4 5 6 7 8 
P 


(b) 决 策 


(b) Decision diagram 


图 2 


数据 集 分 布 与 决策 图 示例 


Fig.2 Data set distribution and decision diagram 


DPC 算法 的 


Algorithm DPC 


1:Input: FER BOS 


2:Output: 聚 类 索引 的 


体 流 程 如 下 所 示 : 


S={x, 


i 


} EE p. 


ant 


标量 y。 


3: 计算 数据 集 样本 点 


两 两 之 间 的 距离 ,得 到 按 距离 值 升 序 排列 的 向 
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4: 根 据 式 (1) 或 (3) 计 算 各 样本 点 的 pis 不 明显 。Cb)(c) 中 决策 图 的 聚 类 中 心 更 为 紧凑 ，(c 中 聚 类 中 心 
5: 根 据 式 (4) 计 算 各 样本 点 的 6;; 的 局 部 密度 均 接近 于 所 有 样本 点 局 部 密度 的 最 大 值 ， 说 明 
G6: 根据 计算 得 到 的 pi 与 5 绘制 决策 图 ， 并 选取 聚 类 中 心 ; ADPC-WKNN 算法 新 定义 的 局 部 密度 公式 能 更 加 突出 聚 类 
7: 将 其 余 样本 点 按 局 部 密度 大 小 分 配 至 距离 最 近 的 更 高 密度 点 所 ”中心 的 特性 。 

HERR: 和 Decision Graph Decision Graph 
8: 得 到 聚 类 索引 的 标量 y。 i esi i R 

1.2 K 近邻 算法 i eb, ， een 

K 近邻 算法 又 称 为 KNN 算法 ， 已 经 被 广泛 用 于 分 类 、 2 s6 wl Š 

可 归 、 密 度 估计 及 模式 识别 等 领域 09。 顾 名 思 义 ， 这 种 算法 

的 目的 就 是 在 所 有 样本 中 找到 距离 目标 样本 最 近 的 K 个 邻 1 “9 1 oe 

居 ， 样 本 之 间 的 距离 通常 由 欧 氏 距离 表示 。 akiamini Mann | 

KNN 算法 的 原理 比较 简单 ， 仍 然 假设 存在 数据 集 p P 
S= {a)i NARRADA, TEE HARRE x RF N-1 个 0 ae dade 


Decision Graph 


样本 的 距离 后 ， 将 距离 值 按 升序 排列 ， 前 K 个 距离 值 所 对 应 : 

的 样本 即 距 离 目 标 样本 x 最 近 的 KK 个 邻居 ,表示 为 KNN()。 ; 

如 图 3 所 示 ，KNN 算法 用 于 分 类 时 ， 其 基本 思路 为 : 如 果 一 03 ° 
2 
1 
0 


个 样本 在 特征 空间 中 的 K 个 最 相似 ( 即 特征 空间 中 最 邻近 ) 的 
样本 中 的 大 多 数 属于 某 一 个 类 别 , 则 该 样本 也 属于 这 个 类 别 ， 
并 且 ， 其 所 选择 的 邻居 都 是 已 经 正确 分 类 的 对 象 。 


10 1 35 


(c)ADPC-WKNN(p=1.5%) 
图 4 RIS 数据 集聚 类 决策 图 
Fig.4 Clustering decision diagram of R15 dataset 
由 于 DPC 算法 在 选取 聚 类 中 心 需 要 进行 人 工 决策 , 使 得 
聚 类 过 程 带 有 一 定 的 主观 性 和 随机 性 ， 难 以 从 量化 的 角度 确 
定 聚 类 中 心 ， 不 利于 算法 的 应 用 。 鉴 于 此 ， 本 文通 过 分 析 pi 
和 6; 的 统计 特性 ， 提 出 了 一 种 基于 二 者 归 一 化 乘积 y; 的 聚 类 


图 3 KNN 算法 分 类 原理 中 心 临界 点 判别 法 ， 从 而 实现 自动 选择 聚 类 中 心 的 目的 。 该 
Fig.3 Classification principle of KNN algorithm 判别 法 的 基本 思想 : 根据 DPC 选取 聚 类 中 心 的 原则 ， 通 过 yi 
的 大 小 差异 评测 样本 点 的 特征 ， 根 据 斜 率 变化 趋势 判别 出 聚 


a ADEE ENN 0 类 中 心 临界 点 ， 从 而 将 临界 点 之 前 的 样本 点 自动 确定 为 聚 类 
为 了 提高 DPC 算法 应 用 在 密度 不 均匀 数据 集 时 的 表现 ， 中 心 ， 将 临界 点 及 其 之 后 的 样本 点 根据 分 配 原 则 完成 聚 类 。 
本 文 基于 加 权 开 近邻 算法 的 基本 理念 , 重新 定义 了 局 部 密度 以 文献 [6] 中 使 用 的 GDP 数据 集 为 例 ， 选 择 p=1.5%, X} 
Pi 的 计算 方法 。 并且 ,为 了 克服 DPC 算法 在 选取 聚 类 中 心 时 ”pi 和 61 进行 妇 一 化 处 理 后 求 出 各 样本 点 的 y;， 将 样本 点 权 值 
缺乏 标准 的 不 足 ， 本 文 根 据 样本 点 权 值 趋势 给 出 了 判别 聚 类  ” 按 降 序 排列 并 取 前 40 个 点 ， 如 图 5 所 示 , yi 越 大 的 样本 点 越 
中 心 与 剩余 点 的 明确 标准 ， 实 现 了 聚 类 中 心 的 自动 选择 。 有 可 能 是 聚 类 中 心 ， 样 本 点 的 权 值 呈 先 快速 下 降 再 稳定 的 趋 
DPC 算法 所 定义 的 局 部 密度 存在 对 数据 的 局 部 结构 不 势 ， 但 是 下 降 的 程度 不 同 。 因 此 ， 其 中 相对 于 初始 点 斜率 变 
敏感 的 缺点 ,特别 是 数据 集中 不 同 簇 的 密度 存在 很 大 差异 时 ， ”化 趋势 最 大 的 样本 点 可 被 看 做 聚 类 中 心 的 临界 点 ， 定 义 这 个 


局 部 密度 的 变化 会 导致 选取 聚 类 中 心 时 存在 很 大 的 差异 。 本 ”和 斜率 变化 趋势 为 tendi: 
文 将 加 权 KNN 的 概念 引入 到 局 部 密度 的 计算 中 ， 采 用 反 函 end eee (8) 
数 与 高 斯 核 函数 乘积 和 的 加 权 形 式 来 表示 新 的 局 部 密度 。 i Y-Y 
NNu(xi) #2 RARAP A x 的 距离 排名 (由 小 到 大 ) 为 K 从 式 (8) 可 以 看 出 ， 斜 率 变化 趋势 即 为 样本 点 i 到 itl R} 
的 点 ，KNNCo) 定 义 为 率 与 样本 点 i 到 初始 点 斜率 的 商 ， 临 界 点 被 定义 为 为 拥有 最 
KNN) ={j €S |d (x;,x;) < dC, NN, (x:))} (6) ”大 tendi 的 样本 点 。 如 图 6 所 示 , 第 五 个 样本 点 拥有 最 大 的 斜 
新 的 局 部 密度 表示 如 下 : 率 变 化 趋势 ， 被 判定 为 临界 点 ， 则 将 图 5 排序 图 中 的 前 五 个 
ps l op a) PEA ETE RAD, ERREX. 
sekawan C +d (XiX) 图 7 展示 了 选择 不 同 个 数 聚 类 中 心 的 聚 类 结果 ， 可 以 看 
AOF, c 表示 数据 集中 所 有 样本 点 两 两 之 间 的 距离 和 ， 出 ， 当 聚 类 中 心 为 五 个 时 聚 类 效果 最 好 ， 这 也 与 文献 [6] 的 聚 
唯一 的 参数 为 K， 其 确定 方法 与 截断 距离 dc 类似 ， 由 用 户 指 。” 类 结果 一 
定 一 个 百分比 p，K=pxN, N 为 数据 集中 所 有 样本 点 的 数量 。 ADPC-WKNN 算法 的 具体 流程 如 下 
图 4 为 DPC 算法 、DPC-KNN 算法 以 及 本 文 提 出 的 Algorithm ADPC-WKNN 
ADPC-WKNN 算法 对 R15 数据 集聚 类 时 的 决策 图 , 从 图 中 本 E PEN N 
UEH, (ay! DPC 算法 的 决策 图 里 聚 类 中 心 分 布 散 乱 ， 其 a E a a A 
中 局 部 密度 最 低 的 聚 类 中 心 位 于 横 轴 中 轴 附 近 ， 其 局 部 密度 2:0utput: 聚 类 索引 的 标量 y。 


大 小 位 于 所 有 样本 点 里 的 中 游 水 准 ， 作 为 聚 类 中 心 的 特性 3: 计算 数据 集 样本 点 两 两 之 间 的 距离 ,得 到 按 距 离 值 升 序 排列 的 向 
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5: 根 据 公 式 (4) 计 算 各 样本 点 的 6i; 

6: 根 据 计算 得 到 的 pi 与 5; 算出 各 样本 点 的 yis 

7: 将 各 样本 点 的 yi; 降序 排列 ， 并 计算 斜率 变化 趋势 tend;， 找 到 最 大 
值 对 应 的 临界 点 ， 将 临界 点 之 前 的 样本 点 选 作 聚 类 中 心 ; 


8: 将 其 余 样本 点 按 局 部 密度 大 小 分 配 至 距离 最 近 的 更 高 密度 点 所 在 
is 
9: 得 到 聚 类 索引 的 标量 yo 
1 
09 
0.8r 
O7F 
06 
05 
0.4 
0.3} 
0.2} 
0.1 
K 5 10 15 20 25 30 35 40 
point 
图 5 样本 点 权 值 排序 图 
Fig.5 Sample point weight sorting graph 
07 7 
o.s} 
0.5F 
0.4 F 
= 03r 
0.2} 
04 
00 5 0 16 20 2 30 3 40 
point 
图 6 临界 点 判别 图 
Fig.6 Critical point discrimination diagram 
05 
> oO 
05 


(a) 选 择 4 个 聚 类 中 心 


0.5 
> 0 
-05 
1 05 0 05 1 
x 
(0) 选 择 6 个 聚 类 中 心 


图 7 选择 不 同 个 数 聚 类 中 心 的 聚 类 结果 
Fig.7 Clustering results for different numbers of cluster centers 


3 ”仿真 实验 


为 了 测试 ADPC-WKNN 算法 的 聚 类 性 能 ， 本 文采 用 5 
个 经 典 人 工 数据 集 以 及 5 个 UCI 上 的 真实 数据 集 进 行 实验 ， 
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量 ; 对 比 算 法 为 划分 聚 类 经 典 算法 K-means++， 密 度 聚 类 经 典 货 


法 DBSCAN 以 及 DPC 算法 。 
3.1 实验 环境 与 数据 集 

本 文 的 实验 环境 为 Windows10 64 位 操作 系统 , Intel Core 
i7-6700HQ @2.60 GHz CPU,8 GB 内 存 , 采 用 MATLAB2014a 
进行 实验 。 人工 数据 集 及 UCI 真实 数据 集 属性 分 别 如 表 1、2 
所 示 。 


表 1 人 工 数 据 集 
Table 1 Artificial dataset 

数据 集 样本 数 维 数 类 别 数 来 源 

Spiral 312 2 3 [17] 

R15 600 2 15 [18] 

Flame 240 2 2 [19] 

Jain 373 2 [20] 

Aggregation 788 2 yi [21] 

表 2 UCI 数据 集 
Table 2 UCI dataset 

数据 集 样本 数 维 数 类 别 数 来 源 

Iris 150 4 3 22] 

Seeds 210 7 3 22] 

Zoo 101 18 7 22) 

Waveform 5000 21 3 22] 

Wine 178 13 3 22] 

3.2 二 维 人 工 数据 集聚 类 结果 图 及 分 析 
本 文 实验 中 使 用 的 人 工 数 据 集 各 样本 点 分 布 情况 如 图 8 
所 示 。 
18 
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(e)Spiral B44 
图 8 人 工 数据 集 样本 点 分 布 图 例 
Fig.8 Artificial dataset sample point distribution 
采用 本 文 提出 的 ADPC-WKNN 算法 对 这 5 个 数据 集 进 
行 聚 类 ， 其 结果 如 图 9 所 示 。 
从 图 中 可 以 看 出 , ADPC-WKNN 在 5 个 人 工 数据 集 上 均 
取得 了 良好 的 聚 类 效果 ， 但 是 输入 参数 疡 的 跨度 较 大 ， 尤 其 


ant 
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是 Spiral 数据 集 和 Jain 数据 集 , 在 样本 数 十 分 接近 的 情况 下 ， 


输入 参数 分 别 为 2.2% 和 0.2%。 因 此 ， 如 何 辅助 用 户 决策 出 
最 佳 输 入 参数 将 成 为 下 一 步 研究 的 重点 。 
1 15 
> 14 Be 
a se & >o X) 3. pi 
m 2 s g xi 3 R 
14 5 0 5 10 & E = 
‘So 全 证 o o i o 


(b)Aggregation 数据 集 (p=1.5%) 
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(d) Jain 数据 集 (p=0.2%) 


0 5 10 


(c) Flame 数据 集 (p=0.5%) 
2 


Ss 05 a 5 10 15 20 
(€) Spiral 数据 集 (p- 2.2%) 
图 9 ADPC-WKNN 算法 聚 类 结果 图 
Fig.9 Clustering result graph of ADPC-WKNN algorithm 
3.3 ”算法 聚 类 性 能 评估 分 析 
本 文采 用 准确 率 (accuracy)、 召 回 率 (recall) 以 及 归 一 化 互 
信息 ormalized mutual information，NMD 来 评估 各 算法 的 聚 


u 


类 性 能 ， 其 中 淮 确 率 和 召回 率 是 广泛 用 于 信息 检索 和 统计 学 
领域 的 两 个 度量 指标 ， 通 常用 米 评 价 取 类 结果 的 好 坏 ， 归 一 
化 互信 息 则 是 变量 之 间 相 互 依赖 性 的 度量 。 三 种 评价 指标 的 


范围 均 在 0 到 1 之 间 ， 且 值 与 聚 类 性 能 好 坏 成 正 相 关 。 下 面 


简要 介绍 这 三 个 评价 指标 的 计算 公式 。 

假设 Pj 为 已 知 的 人 工 标 注 过 的 簇 , CG AA RA Ia WR, 
各 指标 计算 公式 如 下 : 

Accuracy(P, ,C;) = | PAG | (9) 

IG | 

ei cy- BOCI 
Recall(P,,C;) P| (10) 

NB) 
NMP, C= TPAC (11) 


实验 结果 如 图 10~15、 表 3~5 所 示 ， 为 了 更 直观 地 展示 
各 算法 在 性 能 指标 上 的 差异 ， 图 中 纵 轴 代表 的 数据 均 不 是 从 
0 开始 。 

具体 的 实验 结果 如 表 3~ 5 所 示 , 表格 中 加 粗 的 数字 代表 
在 此 数据 集 上 最 好 的 结果 。 

从 图 10-15 5% 3-5 可 以 看 出 ， 本 文 提 出 的 
ADPC-WKNN 算法 在 三 个 聚 类 性 能 评估 指标 上 普遍 优 于 
DPC 算法 、DBSCAN 算法 与 K-MEANS++ 算 法 , 对 于 前 五 个 
人 工 数 据 集 ，ADPC-WKNN 算法 的 三 项 性 能 指标 均 为 最 高 ， 
说 明 本 文 提 出 的 ADPC-WKNN 算法 在 二 维 数据 集 上 性 能 优 
越 。 对 于 UCI 数据 集 ，Iris 数据 集 和 Seeds 数据 集 等 维 数 不 
是 特别 高 的 数据 集 ， 本 文 算法 在 三 项 性 能 指标 上 仍然 是 最 高 
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的 ， 但 是 在 Zoo. Waveform 和 Wine 等 高 维 数据 集 上 ， 
ADPC-WKNN 算法 的 聚 类 效果 并 不 突出 ， 在 Waveform 数据 
集 上 , 本 文 只 有 准确 率 与 召回 率 两 项 指标 是 最 高 的 , 而 在 Zoo 
及 Wine 数据 集 上 ， 本 文 算法 的 三 项 性 能 指标 均 不 是 最 高 的 。 
由 此 可 见 ， 本 文 提出 的 ADPC-WKNN 算法 在 中 低 维 数据 集 
上 的 聚 类 效果 良好 ， 其 处 理 高 维 数据 集 的 能 力 还 有 所 欠缺 。 
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图 10 人 工 数据 集 上 各 算法 准确 率 对 比 


g.10 Accuracy comparison of algorithms on artificial data sets 
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图 11 人 工 数据 集 上 各 算法 召回 率 对 比 
Fig. 11 Recall comparison of algorithms on artificial data sets 
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图 12 人 工 数据 集 上 各 算法 归 一 化 互信 息 对 比 


Fig. 12 Normalized mutual information comparison of algorithms on 
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图 13 UCI 数 据 集 上 各 算法 准确 率 对 比 


Fig. 13 Accuracy comparison of algorithms on UCI data sets 
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Fig. 14 Recall comparison of algorithms on UCI data sets 
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Fig. 15 Normalized mutual information comparison of algorithms on 


UCI data sets 


表 3 各 算法 准确 率 
Table 3 Algorithm accuracy 


i vO Accuracy(%) 
EA ADPC-WKNN DPC DBSCAN K-MEANS++ 
Spiral 100 100 98.3 87.6 
R15 100 99.3 96.4 74.5 
Flame 100 100 96.7 85.6 
Jain 100 100 92.8 79.1 
Aggregation 100 98.8 97.6 86.2 
Iris 94.2 90.6 67.8 89.5 
Seeds 91.7 90.4 71.4 89.1 
Zoo 78.5 69.3 70.1 82.9 
Waveform 63.1 61.8 45.7 54.3 
Wine 91.7 88.6 57.3 95.8 
#4 各 算法 召回 率 
Table 4 Algorithm recall 
Recall(%) 
数据 集 
ADPC-WKNN DPC DBSCAN K-MEANS++ 
Spiral 100 100 99.5 99.4 
R15 100 99.5 98.4 87.2 
Flame 100 100 97.3 90.1 
Jain 100 100 93.2 83.5 
Aggregation 100 99.6 99.3 92.7 
Iris 94.6 90.3 86.5 90.7 
Seeds 91.7 90.4 71.4 89.1 
Zoo 79.3 73.8 75.2 87.6 
Waveform 65.3 63.7 56.4 59.8 
Wine 93.2 90.1 62.3 96.2 
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表 5 各 算法 归 一 化 互信 息 
Table 3 Algorithm normalized mutual information 
: NMI(%) 

数据 集 ADPC-WKNN DPC DBSCAN K-MEANS++ 
Spiral 100 100 97.8 83.4 
R15 100 98.9 95.2 61.3 
Flame 100 100 95.4 79.6 
Jain 100 100 90.3 83.4 
Aggregation 100 99.1 96.8 83.9 
Iris 78.8 75.3 60.7 75.8 
Seeds 73.9 70.3 59.9 67.8 
Zoo 63.5 59.3 54.7 70.4 
Waveform 54.3 56.1 38.2 48.3 
Wine 76.1 71.4 49.5 85.7 


3.4 算法 复杂 度 分 析 


it N 为 数据 集 点 个 数 ，DPC 算法 的 时 间 复 杂 度 为 OND, 


类 
算 
K 
K 
两 
的 


个 


4 


理 
问 


ADPC-WKNN， 该 算法 结合 加 权 K 近邻 的 


与 


-MEANS++ 算 法 的 时 间 


个 数 ， 且 对 于 形状 不 规则 的 数据 集 轩 


其 复杂 度 主 要 来 源 于 计算 N 个 数据 点 两 两 之 间 的 距离 , 相 比 


DPC 算法 
HA 心 的 自 
法 的 时 间 


， 本 文 提出 的 ADPC-WKNN 算法 由 于 加 入 

动 选择 ， 需 要 多 计算 一 个 量 y;， 故 ADPC-WKNN 
复杂 度 为 O(N”)+ O(N)~ O(N”)。DBSCAN 算法 与 
复杂 度 分 别 为 O(N 与 O(N)， 这 是 
为 K-MEANS++ 算 法 作为 划分 聚 类 算法 ， 无 须 考 虑 数据 点 
两 之 间 的 距离 ， 只 需 考 虑 各 数据 点 与 指定 的 数 个 聚 类 中 心 
距离 。 但 是 ，K-MEANS++ 算 法 需要 人 为 指定 聚 类 中 心 的 


RR URH o 


结束 语 


DPC 算法 在 对 密度 分 布 不 均匀 的 数据 集聚 类 时 效果 不 
想 ， 且 选取 聚 类 中 心 时 缺乏 明确 的 标准 。 本 文 针 对 这 两 个 
题 提 出 了 一 种 基于 加 权 K 近邻 的 改进 密度 峰值 聚 类 算法 : 
思想 , 采用 反 函 数 
高 斯 核 函 数 的 乘积 形式 重新 定义 了 局 部 密度 ， 并 且 基 于 权 


值 
存 
表 


簇 ， 


类 
究 
数 


斜率 变化 趋势 来 确定 聚 类 中 心 临界 点 ， 有 效 解决 了 原 算 法 
在 的 问题 。 在 人 工 数 据 集 及 UCI 真实 数据 集 上 的 实验 结果 
HA, ADPC-WKNN 算法 能 准确 识别 出 二 维 数据 集 的 所 有 
是 在 聚 类 性 能 指标 上 也 普遍 高 于 原 算 法 以 及 经 典 密度 聚 
算法 DBSCAN 与 经 典 划 分 算法 KMEANS++。 在 今后 的 
过 程 中 ， 如 何 确定 算法 的 最 佳 输 入 参数 与 提高 算法 在 高 维 
据 集 上 的 聚 类 性 能 将 是 下 一 步 的 研究 重点 。 
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